การเปลี่ยนแปลงแนวคิด: จากโมเดลเฉพาะงานไปสู่โมเดลภาษาขนาดใหญ่ (LLMs)

วิวัฒนาการของภาษาศาสตร์เชิงคอมพิวเตอร์: จากปัญญาประดิษฐ์ที่แยกเป็นชิ้นเล็กๆ ไปสู่โมเดลพื้นฐาน

คำจำกัดความ

ปัญญาประดิษฐ์แบบแยกส่วน: ยุคสมัยที่ถูกกำหนดโดยสถาปัตยกรรมประสาทเทียมที่แยกเป็นชิ้นส่วนและมีจุดประสงค์เฉพาะสำหรับงานต่างๆ เช่น การติดป้ายลำดับข้อมูลหรือการจัดกลุ่มประเภท
โมเดลพื้นฐาน: สถาปัตยกรรมโพร่งอันเดียวที่ใช้ร่วมกัน ซึ่งมองปัญหาด้านภาษาทั้งหมดเป็นปัญหาการสร้างลำดับข้อความจากข้อความไปยังข้อความ $x \rightarrow y$

แนวคิดหลัก

การรวมโครงสร้างสถาปัตยกรรม: ในอดีต งานวิเคราะห์ภาษาจำเป็นต้องใช้ระบบเฉพาะเจาะจง (เช่น บี-แอลสต์เอ็มสำหรับการระบุชื่อบริษัท หรือ ซี-ซี-เอ็น-เอ็น สำหรับการตรวจจับอารมณ์) แต่โมเดลภาษาขนาดใหญ่ (LLM) ได้รวมสิ่งเหล่านี้ไว้ในโครงสร้างหลักเพียงชิ้นเดียว ที่ใช้ค่าคงที่เดียวกันในการประมวลผลทุกงาน
อินเทอร์เฟซที่รวมเป็นหนึ่งเดียว: โมเดลภาษาขนาดใหญ่ (LLM) แทนที่ 'หัวออก' ที่เฉพาะเจาะจง (เช่น ฟังก์ชันซอฟต์แม็กซ์ 3 คลาส) ด้วยอินเทอร์เฟซที่ใช้ภาษาธรรมชาติ ข้อมูลเข้าและข้อมูลออกจะเป็นสายข้อความเสมอ ทำให้โมเดลสามารถเข้าใจ intent มากกว่า รูปแบบ.
การถ่ายทอดความรู้: โมเดลแบบเดิมมีลักษณะเหมือนแผ่นกระดาษเปล่าสำหรับแต่ละงาน แต่โมเดลภาษาขนาดใหญ่ (LLM) ให้ความสำคัญกับ การเรียนรู้เชิงทั่วไปเป็นอันดับแรก โดยที่งานเฉพาะเจาะจงต่างๆ เป็นเพียงการนำไปใช้งานอย่างหนึ่งของโครงสร้างภายในที่มั่นคงและครอบคลุมของการเข้าใจภาษา

บริบททางประวัติศาสตร์

ก่อนปี 2018: การแยกงานต่าง ๆ ต้องใช้การฝึกโมเดลที่แตกต่างกัน โดยแต่ละโมเดลมีฟังก์ชันการสูญเสียที่ต่างกัน $\mathcal{L}_{task}$
ยุคสมัยใหม่: แนวทาง "ข้อความต่อข้อความ" อนุญาตให้โมเดลเดียว (เช่น แลมมา-3) เปลี่ยนงานได้ผ่านการแนะนำแบบไม่มีตัวอย่างหรือมีตัวอย่างน้อย

การเปรียบเทียบการใช้งานภาษาไพธอน

คำถามที่ 1

อะไรที่ทำให้อินเทอร์เฟซของโมเดลภาษาขนาดใหญ่ (LLM) แตกต่างจากโมเดลภาษาศาสตร์เชิงคอมพิวเตอร์แบบเดิม?

การใช้หัวออกที่เฉพาะเจาะจงสำหรับแต่ละงาน

การใช้อินเทอร์เฟซสายข้อความต่อสายข้อความที่รวมเป็นหนึ่งเดียว

ข้อกำหนดในการฝึกโมเดลใหม่สำหรับแต่ละชุดข้อมูล

การพึ่งพาสถาปัตยกรรมบี-แอลสต์เอ็ม

คำถามที่ 2

ในยุคของโมเดลพื้นฐาน นักพัฒนาจะเปลี่ยนจากงานระบุชื่อบริษัท (NER) เป็นการวิเคราะห์อารมณ์ได้อย่างไร?

โดยการเปลี่ยนฟังก์ชันการสูญเสีย $\mathcal{L}_{task}$ และฝึกซ้ำ

โดยการใช้สถาปัตยกรรมเครือข่ายประสาทเทียมที่แตกต่างกันอย่างสิ้นเชิง

โดยการเปลี่ยนคำนำหน้าภาษาธรรมชาติสำหรับโมเดลเดียวกัน

กรณีศึกษา: นักพัฒนาปี 2018 กับนักพัฒนาสมัยใหม่

อ่านสถานการณ์ด้านล่างแล้วตอบคำถามต่อไปนี้

นักพัฒนาต้องสร้างแชทบอทที่สามารถระบุชื่อผู้ใช้ (การระบุชื่อบริษัท) และตรวจจับความโกรธ (การวิเคราะห์อารมณ์) เปรียบเทียบวิธีการแบบดั้งเดิม (สองโมเดล สองชุดข้อมูลฝึกอบรม สองกระบวนการติดตั้ง) กับวิธีการแบบโมเดลพื้นฐาน (โมเดลเดียว เช่น แลมมา-3 สองคำสั่งระบบ)

คำถาม

1. ความแตกต่างหลักในภาระงานด้านโครงสร้างระหว่างสองวิธีคืออะไร?

คำตอบ:
วิธีดั้งเดิมต้องโฮสต์และดูแลโมเดลหลายตัวที่แตกต่างกันในหน่วยความจำ ในขณะที่วิธีโมเดลพื้นฐานต้องโฮสต์เพียงโมเดลเดียวที่มีโครงสร้างรวมเป็นหนึ่งเดียว ซึ่งจัดการงานทั้งสองประเภทได้

คำถาม

2. ความต้องการข้อมูลแตกต่างกันอย่างไรเมื่อเพิ่มงานใหม่ (เช่น การแปลภาษา)?

คำตอบ:
ตามแบบเดิม การเพิ่มงานแปลภาษาต้องใช้ชุดข้อมูลขนานขนาดใหญ่เพื่อฝึกโมเดลใหม่จากศูนย์ แต่กับโมเดลพื้นฐาน อาจเพียงแค่ต้องการคำแนะนำแบบไม่มีตัวอย่างหรือมีตัวอย่างน้อย ซึ่งใช้ความรู้ที่มีอยู่แล้ว

คำถาม

3. ในวิธีการโมเดลพื้นฐาน โมเดลรู้ได้อย่างไรว่าควรทำงานใด?

คำตอบ:
ผ่านคำนำหน้าภาษาธรรมชาติที่ให้มาในช่วงเวลาการคาดการณ์ ซึ่งทำหน้าที่เป็นอินเทอร์เฟซที่รวมเป็นหนึ่งเดียวเพื่อชี้นำผลลัพธ์การสร้างของโมเดล